Inversión óptima de matrices con multiplicación para atención lineal cuantizada Aceleración 5x en atención lineal en NPU con inversión de matrices solo multiplicación, reduciendo 20% sobrecarga sin perder precisión. 2026-06-05 · 3 min